Decker and Trusov
2010
International Journal of Research in Marketing
商品(本論文では携帯電話のデータを用いている)の各属性に対する,消費者に関して集計された選好を分析することで,製品改善・開発に役立てる.
Poisson Regression \[ \begin{align} p(Y=y_n) &= Pois(\lambda_n) \\ \lambda_n &= Intercept + BrandIntercept_n + \sum_{l=1}^{L}\beta_{l1}x_{nl1}+\beta_{l2}x_{nl2} \end{align} \] ただし,\(x_{nl1}\)はレビュー\(n\)に属性\(l\)についてのProsが含まれているか否かを示すダミー変数である
Negative Binomial Regression \[ p(Y=y_n) = NegBinom(\lambda_n) \] \(\lambda_n\)はPRモデルと同じ
Latent Class Poisson Regression(AIC最小モデル) \[ p(Y=y_n) = \sum_{i=1}^{I}\pi_{in}Pois(\lambda_{in}) \] \(\pi_{in}\)はレビュー\(n\)のクラスター\(i\)に対する所属割合を表すパラメータであり,クラスターごとに異なる選好\(\beta_{ilpro},\beta_{ilcon}\)がある
「商品属性に対する先行を推定する」ことを目的としたとき,先行研究のアプローチとしては
これらは,どちらも「企業側が定めた属性」に対する先行に着目している. しかし,近年は,Lee and Bradlow (2007)のように,カスタマーレビューを用いて「消費者が認識している属性」に対する選好を見る研究が注目されている. そのような研究の中では,
が新しい.
五十嵐
Archak, Ghose and Ipeirotis
2011
Management Science
カスタマーレビューに含まれる製品属性とそれに対するレビュワーの評価を考慮してカスタマーレビューが売り上げに与える影響を推定すること
まず,以下のテキストマイニング処理によってカスタマーレビューから製品属性及びそれに対する評価内容を抽出(カスタマーレビューから製品属性を自動的に抽出する手法に関する研究を引用,Hu and Liu 2004, Ghani et al. 2006) * part-of-speech taggerを使って製品属性に関連する単語・フレーズを抽出 * WordNetを使って抽出した単語・フレーズを意味のまとまりでクラスタリング(クラスターの数は製品属性の数に一致) * syntactic dependency parserを使って製品属性と係り受け関係にある形容詞を抽出
それを使って以下の需要モデルを推定 \[ \begin{align} \log(s_{jt}) = d_j + \gamma p_{jt} + X_{jt}\beta_{jt}^{X} + \sum_{f \in \mathcal{F}} \sum_{e \in \mathcal{E}} \Upsilon_{jt}(f, e) \beta_{jt}^{\Upsilon}(f, e) + Z_{jt} \beta_{jt}^{Z} + \theta\log(s_{jt-1}) + \epsilon_{jt} \end{align} \] 変数はそれぞれ以下の通りである * \(s_{jt}\) : 製品 \(j\) の時点 \(t\) における売り上げ順位(Amazonにおける順位) * \(d_j\) : 固定効果 * \(p_{jt}\) : 価格 * \(X_{jt}\) : レビュー変数(評点の平均や分散など量的なもの) * \(\Upsilon_{jt}(f, e)\) : 製品属性 \(f\)(camera quality, ease of useなど)に対する評価 \(e\) (Great, Simpleなど)がレビュー内で用いられた回数 * \(Z_{jt}\) : コントロール変数
五十嵐
Xiao, Wei and Dong
2016
Information and Management
Decker and Trusovと同じく、商品の各属性に対する消費者の’aggregate’な選好を明らかにし、製品開発や改良に活用する。
Kano-modelに基づき、商品の属性をカテゴライズする。 ### モデル #### NLP 当研究では、“semi-structured review”を対象に分析を行う。これは、消費者が決められたpros/consフォーマットの入力に加え、自由文の入力も許された形式を指す。単語の極性が分かっている状態なので、sentiment analysisは必要なし。 #### Model
Modified Ordered Choice Model (MOCM) この提案モデルは、攪乱項 \(\epsilon\) にheteroskedasticity(分散の不均一性),閾値 \(\mu\) に消費者のheterogeneityを考慮したモデルになっている。(と主張されている。) \[ \begin{align} &Prob[y_i=j|x_{k,.},B_k,w_i,v]=\\ &\left\{ \begin{array}{ll} \Phi\biggl[\frac{\mu_{i,0}-\beta'(x_{k,pro}+x_{k,cons}+B_k)}{\sqrt{\sigma_{i,k}^2}} \biggr],\quad if\quad j=0 \\ \Phi\biggl[\frac{\mu_{i,j}-\beta'(x_{k,pro}+x_{k,cons}+B_k)}{\sqrt{\sigma_{i,k}^2}} \biggr] -\Phi\biggl[\frac{\mu_{i,j-1}-\beta'(x_{k,pro}+x_{k,cons}+B_k)}{\sqrt{\sigma_{i,k}^2}}\biggr],\quad if \quad 0<j<J \\ 1-\Phi\biggl[\frac{\mu_{i,j-1}-\beta'(x_{k,pro}+x_{k,cons}+B_k)}{\sqrt{\sigma_{i,k}^2}}\biggr],\quad if \quad j=J \end{array} \right. \end{align} \] この時、 \[ \sigma_{i,k}^2=\exp(\gamma'w_i+v)\quad v \sim N(0,1)\\ \mu_{i,j}=\mu_{i,j-1}+\exp(\theta_j+\delta'z_i+\eta) \] で、この時\(x_k\)がレビューkの商品属性に関するダミー変数。\(B_k\)がレビューkのブランド切片項。\(\Phi\)は標準正規分布の累積分布関数。\(w_i\)が消費者iの投稿したレビュー数。\(z_i\)が消費者iの’Overall reputation’(信用度のようなもの?)を表す。
Marginal effect-based Kano model (MEKM) 商品の属性をカテゴライズするため、MOCMで推定された属性毎のmarginal effectを用いて、Kano-modelで主張されている6つのカテゴリーに商品属性を分類する。このフレームワークを当研究では、MEKMとして提案している。
従来のSurvey-data based apporoach の preference measurement (e.g. conjoint analysis)と比較して、レビューデータを用いた preference measurement は以下の利点を持つ。 1. 商品のレビューデータは一般に公開されており、容易に収集することができる。 2. 利用するのはアンケートの被調査者ではなく、実際の消費者の声。 3. 一般的にデータ量がアンケートよりも膨大になるので、より幅広い商品の属性をカバーすることができる。
Review dataを用いたpreference measurementの研究(Decker and Trusov 2010, Lee and Bradlow 2007, 2011)の中では、当研究は以下の点で新しい。
Qi and Zhou
2016
Information and Management
Part 2: Selction of helpful reviews 1. 先行研究が主張する「役に立つレビュー」の特徴や、レビュアーの特徴、リプライやhelpful votesなどのMetadataをまとめ、役に立つレビューの特徴量とする。 2. 30,000弱のレビューを教師データとし、プロのデザイナーに“役に立つscore”を付けるよう依頼。 3. 線形回帰により、役に立つレビューを選別。役に立つと判別されたレビューをPart 3に回す。
Part 3: Requirements analysis based on utility model \[ y=\alpha+\sum_{j=1}^{15}(\beta_j^{pos}X_j^{pos}+\beta_j^{neg}X_j^{neg}) \] なお、\(y\)は評点ではなく、レビューのsentimentから分析者独自に新たに付与した3 point-scaleの評点。上記のモデルを用いて推定した\(\beta_j^{pos}\)と\(\beta_j^{neg}\)から、 \[ Range_j=|\beta_j^{pos}-\beta_j^{neg}|\\ Backlog_j=\beta_j^{pos}+\beta_j^{neg} \] の二つの値を属性毎に計算。この値に元づきそれぞれの属性が、Kano-modelで言及される属性カテゴリーのどこに分類されるかを明らかにする。 ### ポジショニング・特色 * 従来のpreference measurementに用いられる、質問票を使ったデータ収集はコストがかかる、時系列的な変化に対応できない。→ User Generated Contentを用いたpreference measurementの優位性を主張。 * 一方、Decker and Trusov 2010, Lee and Bradlow 2007, Abrahams et al. 2012といったUGCを用いたpreference measurementの先行研究は、信用性が薄く、質が低いレビューなども含め全てのレビューを一緒くたに考えていることに問題がある。 → 製品デザインに役立つレビューを選別し、それのみを用いた * 役立つレビューを選別する先行研究はあるが、当研究は「製品開発に」役立つレビューを選別した点で新規性がある。
酒井
Moon and Kamakura
2017
International Journal of Research in Marketing
レビューの書き手のライティングスタイル,バイアス,認識度などの影響を考慮して,製品ポジションマップを作成すること
レビューテキスト処理については,以下の手順でontology learningが実行される 1. レビューデータの収集 2. Parsing & Filtering(品詞タグ付け,ステミング,ストップワードの除去など一般的なテキスト前処理に相当) 3. 単語・フレーズを,grand topic - topic - descriptive termで構成される階層的なトピック構造に割り当てるための分類器の作成 4. 各トピックの極性判別(ホテルの例では通常の極性分析,ワインの例では使われる単語の極性が不明な場合が多く,レビューの評点を利用) 5. 各レビューに含まれるトピックのカウント 6. ステップ2~5を安定するまで繰り返し
上記のontology learningで作成した,レビュワー \(i\) が商品 \(j\) のレビューでトピック \(k\) の用語を使用した回数を \(y_{ijk}\) とし,以下の因子モデルを推定する \[ y_{ijk} = u_k + \Gamma_k Z_i + \Lambda_k W_j + \beta_k R_{ij} + \epsilon_{ijk}, \qquad \epsilon_{ijk} \sim N(0, \sigma^2) \] ただし,因子数(\(Z_i\) の次元を \(p\),\(W_j\) の次元を \(q\) とする)はBICによって決定される. 推定した \(W_j\) によって製品ポジションマップを作成できるだけでなく,\(Z_i\) によってレビュワーのポジションマップも同じ空間上に作成することができる.
カスタマーレビューからブランド(製品)×属性の情報を抽出し,ブランド知覚(ポジショニング)マップを作成する研究は多くあるが,本研究は以下の点でそれらと異なる. * 先行研究が限られた数の製品属性しか考慮できていなかったり(Aggarwal et al. 2009; Archak et al. 2011; Ghose et al. 2012),レビューのpro/conが初めから分かっているデータを利用している(Decker and Trusov 2010; Lee and Bradlow 2011)のに対して,本研究では階層的なトピック構造を定義して多くの属性を考慮している * 先行研究の多くでカメラや携帯などsearch products(仕様などを見れば購入前でもおおまかな使用体験を予想できる)のレビューを対象にしているのに対して,本研究ではワインとホテル,つまりexperience products(経験してみないと属性に対する評価を判断しづらく,消費者による違いも出やすい)のレビューを対象としている * 先行研究の大半では,レビューをブランドレベルで集計してしまう(Aggarwal et al. 2009; Lee and Bradlow 2011; Netzer et al. 2012; Tirunillai and Tellis 2014)か,レビュワーの限定的な考慮しかできていない(Decker and Trusov 2010)のに対して,本研究では,書き手による異質性をアジャストしながら製品ポジションマップを作成する手法を提案している
五十嵐
Lamrhari, Elghazi and Faker ### 発行年 2019 ### ジャーナル Journal of Intelligence Studies in Business ### 研究目的 消費者の声を“dynamically”にインサイトに変換する、企業の意思決定支援フレームワークを提案すること。 ### モデル 提案フレームワークは3つのパートに分かれる。 Part 1: Data preprocessing & Aspect-sentiment pairs extraction by LDA 単語単位に分解した後、品詞タグ付けやStop word、ステミングなどをPreprocessingとして行う。
Part 2: Requirements classification based on Fuzzy-Kano model Part 3: Decision making analysis by Fuzzy-Kano model & SWOT
酒井
Hou, Yannou and Leroy ### 発行年 2020 ### ジャーナル Journal of Mechanical Design ### 研究目的 製品のアフォーダンス* に対する消費者の期待の変化を捉えること。
*製品デザインにおける“アフォーダンス(affordance)”とは、製品の属性を、それ自体が独立して存在するもの(e.g. function)ではなく、製品とユーザー、使用環境の交互作用から発生するものとして扱った概念。 例) 「階段」という製品を考えた時に、そのアフォーダンスとして“登りやすさ”、“降りやすさ”などが考えられる。 ### モデル NLP 教師あり機械学習によるNLPは商品のドメイン依存となってしまう問題があるため、本研究ではよりheuristicで一般に適用可能な、rule-basedの商品属性抽出を行う。前処理として以下の操作を行う。。 1. 品詞タグ付け 2. 文法的な従属関係を明らかにする 3. 単語それぞれを元の活用形に戻す。 4. 動詞のカテゴリーを明らかにする。(タグ付けする?)
上記の操作のステップ3まではオープンソースのツールで行い、動詞のカテゴリーに関しては、WordNetというデータベースを利用する。 処理済みの単語に対して、アフォーダンスに該当するフレーズとしてラベル付けを行うためのruleを構築。“Kindle”という製品に対して投稿されたレビューを対象に分析を行い、例として以下のようなアフォーダンスが抽出された。 例)“read book”, “turn page”, “download book”…
評価行動モデリング 順序ロジットモデルを用いる。 \[ Pr(R=5|X_i^{(1)},X_i^{(2)}) = \frac{\exp(\epsilon_1+\sum_i(\alpha_iX_i^{(1)}+\beta_iX_i^{(2)}))}{1+\exp(\epsilon_1+\sum_i(\alpha_iX_i^{(1)}+\beta_iX_i^{(2)}))}\\ Pr(R=4|X_i^{(1)},X_i^{(2)}) = \frac{\exp(\epsilon_2+\sum_i(\alpha_iX_i^{(1)}+\beta_iX_i^{(2)}))}{1+\exp(\epsilon_2+\sum_i(\alpha_iX_i^{(1)}+\beta_iX_i^{(2)}))}\\ \vdots\\ Pr(R=1|X_i^{(1)},X_i^{(2)}) = 1 \]
\(X_i^{(1)}\)は、i番目のアフォーダンスに関するネガティブな言及の有無を表し、\(X_i^{(2)}\)はポジティブな言及の有無を表すダミー変数。 係数\(\alpha_i\),\(\beta_i\)を推定した後、\(K_i=\frac{\beta_i-\alpha_i}{2}\), \(M_i=\frac{\beta_i+\alpha_i}{2}\)を計算し\(K_i\)と\(M_i\)の関係によって、それぞれのアフォーダンスがKano-modelが主張する属性カテゴリーのどれに当てはまるのかを判断する。
実証分析では、2世代のKindle(Kindle Paper2, Kindle Paper3)を対象に2時点で分析を行い、各アフォーダンスが属する属性カテゴリーの変化を明らかにした。(時系列モデルを用いたわけではない。“期待”も本研究では嗜好の意味で用いられており、面白い意味はない。) ### ポジショニング・特色
酒井
Wu, Liu, Fan and Zhang
2019
Tourism Management
もともとSurvey-basedで行われてきたIPA*を、レビューデータを用いたbehavioral-basedで行う方法論を提供すること
*Importance-Performance analysis (IPA)は、顧客満足度の測定のためにMartilla and James (1977)が提案したアプローチ。横軸にImportance (重要度)、縦軸にPerformance (満足度)をとった2次元プロットの形をとり、商品属性を重要度×満足度の形でカテゴリー化する。Kano-modelのような扱い?
3つのStageに分かれる。
ストップワード、ステミングなど一般的なpreprocessingを行った後、LDAのトピック推定をおこなう。その後同じような意味のトピックを分析者が手作業で融合させる。
まずレビューをsentence単位で分解する。この時、一つのレビュー中で同じ属性に言及している複数の文は一つの文にまとめる。その後、文単位のsentimentをIOVO-SVM (Liu, Bi & Fan 2017)というフレームワークを用いて推定する。sentimentは、Very Negative (VNeg), Negative (Neg), Neutral (Neu), Positive (Pos) and Very Positive (VPos) の5つに分類し、これは後述の満足の推定の際に「評点」として用いられる。 \[ \begin{align}&S_{im}=\left\{\begin{array}{ll}5,\quad if\quad sentiment="\mathrm{Very Pos}"\\4,\quad if\quad sentiment="\mathrm{Pos}"\\3,\quad if\quad sentiment="\mathrm{Neu}"\\2,\quad if\quad sentiment="\mathrm{Neg}"\\1,\quad if\quad sentiment="\mathrm{VeryNeg}"\\0,\quad if\quad sentiment="\mathrm{MissingValue}"\end{array}\right.\end{align} \] この時、\(S_{im}\)はm番目のレビューのi番目の属性に対する言及を意味する。
(1) それぞれの属性に対する満足度は、以下の式で計算する。 \[ \mathrm{Per}_i=\frac{\sum^M_{m=1}S_{im}}{E_i},\quad i=1,2,...,I \] この時、\(Per_i\)はi番目の属性の満足度、\(E_i\)はi番目の属性に言及しているレビューの数を表す。
消費者が与える評点は全体の満足度を表している。個々の属性が全体の満足度に与える影響が“Importance”であるとしてしている。またその影響は非線形であると考えられるが、通常のNNはパラメータがランダムに初期化されるため、重要度もランダム化される恐れがある。これを回避するため、ENNMというフレームワークを提案、用いている。
複数のNNを走らせ、属性毎の重み\(\bar{W}^z=\{W_1^z,W_2^z\,...,W_I^z\}\quad z=1,...,Z\) を得る。この時、\(\bar{W}^z\)はz番目のNNで得られた重みを表す。重みのうち外れ値を削除し、残りを集計することで重要度とする。
4種類のプロット法を用いる。
SIPA…ターゲットとなる企業に関して横軸に満足度、縦軸に重要度をプロットするnaiveな方法。
IPCA…競合にある一社との関係を考慮したプロット法。
DIPA…SIPAを時系列に拡張したプロット法。
DIPCA…IPCAを時系列に拡張したプロット法。
当研究では上記の4方向の研究の流れを踏まえている。
Tirunillai and Tellis
2014
Journal of Marketing Research
五十嵐
Wang, Zhang, Zhao, Lu and Peng
2020
Information Systems and e-Business Management
Ordered Choice modelを拡張し、評点とテキスト文のinconsistencyを考慮したモデル “Inconsistent Ordered Choice Model (IOCM)”を提案する。モデルを構築する上で、以下の2つの状況を想定する。 Situation 1: Positiveな言及がないのに、高い評点 \[ \sum_l x_{k,l,pos} = 0;\quad \sum_l x_{k,l,neg}\ge0;\quad y_k\ge4 \] Situation 2: Negativeな言及がないのに、低い評点 \[ \sum_l x_{k,l,neg} = 0;\quad \sum_l x_{k,l,pos}\ge0;\quad y_k\le3 \] 上記の状況を評点とテキスト文のinconsistencyとする。これを本研究では、これを補正するためにレビュアーが言及していない属性に対する評価を推定する。ある評点が与えられた時に、そのレビュアーがある属性に対してpos/negの印象を持つ確率は以下で表される。 \[ \underline{P}(x_{k,l,pos/neg}=1|y_k)=\frac{N_{x_{k,l,・},y_k}}{N_{y_k}}\\ \overline{P}(x_{k,l,pos/neg}=1|y_k)=1-\frac{N_{x_{k,l,・},y_k}}{N_{y_k}}\\ \] \(N_{x_{k,l,・},y_k}\)は\(x_{k,l,pos/neg}=1\)かつ\(y_k\)であるレビュー数を表す。ここで、確率の範囲(i.e. \([\underline{P},\overline{P}]\))を特定の確率の値に変換するため、TOPSISの手法を用いる。(ここは理解できなかった…。) 属性に対する未観測な評価を推定した後、以下のIOCMを用いる。 \[ \begin{align} y_k^*=\left\{ \begin{array}{ll} \beta・[p(x_{k,.,pos}=1|y_k),x_{k,.,neg},b_k]+\epsilon_k,\quad &\mathrm{Situation 1}\\ \beta・[x_{k,.,pos},p(x_{k,.,neg}=1|y_k),b_k]+\epsilon_k,\quad &\mathrm{Situation 2}\\ \beta・[x_{k,.,pos},x_{k,.,neg},b_k]+\epsilon_k,\quad &\mathrm{Otherwise}\\ \end{array} \right. \end{align} \]
本研究では、“Sentiment-based IPA (SIPA)”を提案し、用いる。 1. IOCMの推定されたパラメータ\(\beta_{pos},\beta_{neg}\) と Kano-modelに基づき、商品属性を“Indifferent Features”, “Exciting Features”, “Must-have Features”, “Performance Features”の4つのカテゴリーに分類する。 2. x軸に\(\beta_{neg}\), y軸に\(\beta_{pos}\)、z軸にPerformanceとして \[ Performance(x_{i,l})=\frac{N_{x_{i,l,pos}}}{N_{x_{i,l,pos}}+N_{x_{i,l,neg}}} \] をとる。この時、\(Performance(x_{i,l})\)は商品iの属性lに関するパフォーマンスを表し、\(N_{x_{i,l,pos}}\)は添え字に該当する言及を含むレビュー数を表す。 従来のIPAは2次元であったが、SIPAは3次元に拡張された形になる。
Decker and Trusov (2010),Xiao et al. (2016), Qi et al.(2016)は評点とテキスト文のInconsistencyを考慮していなかった。本研究では考慮している。 #### IPAとして 従来の研究とは異なり、Kano-modelの概念を導入することでImportanceのより詳細な分類ができ、製品改良により有用な知見を得ることができた。
酒井
Copyright © 2020 Mirai Igarashi All rights reserved.